Lj Vi = (A= 甘 日 二 || 


Vol FR dd 


第 39 卷 第 9 期 计算 机 应 用 研究 
录用 定稿 Application Research of Computers Accepted Paper 


贪心 非 对 称 深度 有 监督 哈 希 图 像 检索 方法 
BI, Æ PA, A Hk’, ERR, 张 A 


(陆军 工程 大 学 指挥 控制 工程 学 院 , 南京 210007) 


摘 要 : 近 年来， 深度 有 监督 哈 希 检索 方法 已 成 功 应 用 于 众多 图 像 检 索 系 统 中 。 但 现 有 方法 仍然 存在 一 些 不 足 : 一 
是 大 部 分 深度 哈 希 学 习 方 法 都 采用 对 称 策略 来 训练 网 络 ， 但 该 策略 训练 通常 比较 耗 时 ， 难 以 用 于 大 规模 哈 希 学 习 过 
程 ; 二 是 哈 希 学 习 过 程 中 存在 离散 优化 问题 ， 现 有 方法 将 该 问题 进行 松弛 ， 但 难以 保证 得 到 最 优 解 。 为 解决 上 述 问 
题 ， 提 出 了 一 种 食 心 非 对 称 深度 有 监督 哈 希 图 像 检索 方法 ， 该 方法 将 贪心 算法 和 非 对 称 策略 的 优势 充分 结合 ， 进 一 
步 提 高 了 哈 希 检索 性 能 。 在 两 个 常用 数据 集 上 与 17 种 先进 方法 进行 比较 。 在 CIFAR-10 数据 集 上 48 比特 条 件 下 ， 
与 性 能 最 好 的 方法 相 比 mAP 提高 1.3%; 在 NUS-WIDE 数据 集 上 所 有 比特 下 ，mAP 平均 提高 2.3%。 在 两 个 数据 集 
上 的 实验 结果 表明 ， 所 提 方 法 可 以 进一步 提高 哈 希 检索 性 能 
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Greedy-asymmetric deep supervised hashing for image retrieval 


q Zhao Xinxin, Li Yang, Miao Zhuangt, Wang Jiabao, Zhang Rui 
> (Command & Control Engineering College, Army Engineering University of PLA, Nanjing 210007, China) 


Abstract: In recent years, the deep supervised hash retrieval method have been successfully applied to many image retrieval 
systems. However, the existing methods still have some shortcomings: First, most of the deep hash learning methods use 
symmetric strategies to train the network, but the training of this strategy is usually time-consuming and difficult to be used 
in the large-scale hash learning process; Second, there is a discrete optimization problem in the hash learning process. Existing 
methods relax this problem and it is difficult to guarantee the optimal solution. In order to solve the above problems, this paper 
proposes a greedy-asymmetric deep supervised hashing method for image retrieval, which fully combines the advantages of 
the greedy algorithm and asymmetric strategy to further improve the hash retrieval performance. This article compares 17 
state-of-the-art methods on two commonly used datasets. Compared with the state-of-the-art methods, the propoed method 
increases the mAP in 48-bits setting by 1.3% on CIFAR-10 dataset. And on NUS-WIDE dataset, increases the mAP in all-bits 
setting by increased 2.3% on average. The experimental results show that the propoed method can further improve the 
performance of hash retrieval. 
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= 0 als 和 哈 希 学 习 集 成 到 同一 个 端 到 端 框架 中 09， 使 得 哈 希 编码 的 
‘= a 检索 性 能 相对 于 传统 方法 得 到 了 大 幅 提 升 。 

随 着 图 像 数 据 的 爆炸 性 增长 ， 如 何 从 海量 数据 中 寻找 所 尽管 深度 有 监督 哈 希 学 习 方法 已 经 取得 了 巨大 的 进步 ， 
需要 的 信息 已 经 成 为 一 个 至 关 重 要 的 问题 。 在 大 规模 图 像 检 依然 存在 许多 不 足 15161。 现 有 的 深度 有 监督 哈 希 学 习 方法 
索 中 ， 由 于 哈 希 检索 方法 中 在 计算 和 存储 方面 具有 高 效 性 包 ， 大 部 分 在 训练 过 程 中 采用 对 称 策 略 ， 例 如 ，CNNHI 
因此 基于 哈 希 特 征 的 近似 最 近邻 搜索 方法 中 受到 了 广泛 关注 。 (Convolutional Neural Networks Hashing) . DPSHI!'8! (Deep 
近年 来 ， 许 多 哈 希 检索 方法 已 经 被 提出 ， 它 们 可 以 分 为 Supervised Hashing)、DHNU21(Deep Hashing Network) 
数据 无 关内 和 数据 相关 方法 中。 数据 无 关 方法 主要 是 依靠 随 。 对 称 策略 是 指使 用 相同 的 深度 神经 网 络 对 查询 样本 点 和 
机 映射 来 构造 哈 希 函数 ， 而 哈 希 函数 构造 过 程 通常 不 依赖 于 peer 合 样本 点 进行 深度 特征 提取 ， 再 使 用 相同 的 深度 哈 希 
训练 数据 ， 因 此 该 类 方法 的 检索 精度 较 低 加。 数据 相关 方法 函数 为 查询 样本 点 和 数据 集合 样本 点 生成 哈 希 码 。 采 用 对 称 
利用 各 种 机 器 学 习 技术 来 学 习 哈 希 函 数 。 与 数据 无 关 方法 相 策略 的 哈 希 学 习 方 法 的 训练 通常 比较 耗 时 ， 这 使 得 它们 很 难 
比 , 数据 相关 方法 能 够 利用 更 短 的 哈 希 码 达 到 更 高 的 精度 四 。 有 效 地 利用 监督 信息 来 处 理 大 规模 数据 集合 。 例 如 , DPSH 方 
因此 ,数据 相关 方法 比 数据 无 关 方法 得 到 了 更 加 广泛 的 应 用 。 法 08 的 存储 和 计算 成 本 是 002) ， 其 中 n 是 数据 集合 样本 点 
于 深度 神经 网 络 在 图 像 分 类 四、\ 目标 检测 外 、 人 脸 识 别 的 数量 ，DTSHPR?0 方 法 (Deep Supervised Hashing with Triplet) 
10 等 众多 任务 50 中 的 成 功 应 用 , 研究 人 员 试 图 通过 深度 学 习 的 训练 成 本 甚至 更 高 。 由 于 采用 对 称 策 略 训练 网 络 比较 耗 时 ， 
来 解决 哈 希 问 题 ， 并 提出 了 深度 有 监督 哈 希 学 习 方 法 。 深 度 所 以 为 了 使 训练 切实 可 行 ， 大 多 数 现 有 的 方法 只 从 整个 数据 
有 监督 哈 希 学 习 方法 是 通过 深度 神经 网 络 提取 出 图 像 特征 ， 集合 中 抽取 一 个 子 集 来 构建 哈 希 函数 学 习 的 训练 集 ， 而 其 余 
并 同时 进行 哈 希 学 习 的 一 类 方法 0 53。 该 类 方法 将 特征 提取 数据 集合 样本 点 则 被 丢弃 。 采 用 以 上 策略 虽然 能 够 加 速 网 络 
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训练 ， 但 是 会 出 现 监督 信息 利用 不 充分 问题 R11。 在 ADSH 和 Greedy Hash 方法 的 启发 下 ， 本 文 提出 一 种 
在 早期 关于 非 对 称 哈 希 22 的 研究 工作 中 ， 它 们 使 用 非 贪心 非 对 称 深度 有 监督 哈 希 图 像 检 索 方法 。 该 方法 将 贪心 算 

对 称 距离 度量 来 保持 图 像 之 间 的 相似 度 ， 其 中 训练 集 和 查询 法 和 非 对 称 策略 同时 应 用 到 哈 希 函数 的 学 习 过 程 中 ， 使 得 该 

集 的 二 进 制 哈 希 码 是 由 需要 学 习 的 相同 的 哈 希 函数 生成 的 。 学 习 过 程 即 可 充分 利用 监督 信息 又 能 更 好 求解 离散 优化 问题 。 

受 上 述 非 对 称 思想 启发 ， 后 续 工 作 中 又 提出 了 一 些 深度 非 对 有 具体 地 ， 本 文 的 主要 贡献 包括 以 下 3 个 方面 : 

称 哈 希 方法 ， 如 Deep Asymmetric Pairwise Hashing[24] 、 a) 提 出 了 一 种 贪心 非 对 称 深度 有 监督 哈 希 图 像 检 索 方法 ， 

Nonlinear Asymmetric Multi-valued Hashing!*>], Collaborative 该 方法 将 贪心 算法 和 非 对 称 策略 的 优势 充分 结合 ， 进 一 步 提 

learning for extremely low bit Asymmetric Hashing?°l, Deep 高 了 哈 希 检索 性 能 。 

Asymmetric Hashing with Dual Semantic Regression and Class b) 设 计 了 一 种 贪心 非 对 称 成 对 损失 ， 该 损失 函数 包括 贪 


Structure Quantization2n 和 基于 非 对 称 监 督 深度 离散 哈 希 的 心 损 失 和 非 对 称 成 对 损失 两 部 分 。 贪 心 损失 通过 在 前 传 过 程 
图 像 检索 8 等。 其 中 ADSHP1 方 法 采用 非 对 称 方式 进行 深度 ”中 保持 对 网 络 输出 的 离散 约束 ， 在 反 传 过 程 中 将 哈 希 层 的 梯 
哈 希 学 习 。 非 对 称 方式 是 指 特 征 提取 仅仅 只 对 查询 样本 点 执 。” 度 完全 传送 到 网 络 输出 层 ， 进 一 步 解决 离散 优化 问题 。 非 对 
行 ， 而 不 对 数据 集合 样本 点 执行 。 在 深度 哈 希 函 数学 习 过 程 。 称 成 对 损失 通过 采用 非 对 称 策略 对 查询 样本 点 和 数据 集合 


中 只 学 习 查 询 样本 点 的 哈 希 码 ， 而 数据 集合 样本 点 的 哈 希 码 本 点 使 用 不 同 策略 进行 学 习 , 进一步 提高 了 哈 希 码 学 习 效率 。 
则 是 直接 学 习 得 到 。 该 方法 所 提 的 非 对 称 方式 能 够 有 效 解 决 c) 在 两 个 数据 集 上 的 实验 结果 表明 ， 贪 心 非 对称 深 度 有 
上 述 监督 信息 利用 不 充分 问题 。 监督 哈 希 图 像 检索 方法 可 以 进一步 提高 哈 希 检索 性 能 。 


虽然 ADSH 方法 通过 非 对 称 方式 能 够 充分 利用 监督 信息 1 ”特征 提取 
并 实现 高 效 地 训练 网 络 , 但 由 于 该 方法 在 哈 希 码 学 习 过 程 中 ， 

需要 使 用 sign 函数 (sign 函数 不 可 导 ) 将 深度 特征 映射 为 二 值 图 1 展示 了 贪心 非 对 称 深度 有 监督 哈 希 图 像 检 索 方法 的 
化 哈 希 码 ， 进 而 使 得 该 优化 问题 变 成 NP 难 问题 。ADSH 方 。 模型 结构 。 该 模型 结构 主要 包括 两 部 分 :特征 提取 部 分 和 损 
法 在 训练 阶段 使 用 tarh PRBS ER sign 函数 进行 松弛 PE?， 并 ” 失 函 数 部 分 。 特 征 提 取 部 分 的 主要 作用 是 通过 一 个 骨干 网 提 
在 损失 函数 中 添加 一 个 惩罚 项 来 生成 尽 可 能 离散 的 特征 0& 取出 图 像 的 深度 特征 。 损 失 函 数 部 分 主要 作用 是 通过 哈 希 学 
3 ， 然 后 在 测试 阶段 再 使 用 sign 函数 来 获得 真正 的 二 进 制 哈 。 习 将 图 像 深 度 特征 映射 成 哈 希 码 。 如 图 1 所 示 ， 训 练 图像 首 
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希 码 。 虽 然 这 样 能 够 训练 网 络 ， 但 该 方法 会 引入 量化 误差 。 先 在 特征 提取 阶段 得 到 图 像 的 深度 特征 ， 其 次 通过 哈 希 层 得 
为 了 更 好 求解 离散 优化 问题 , Greedy HashB1 方 法 利用 贪心 原 到 图 像 的 二 进 制 哈 希 码 ， 最 后 通过 所 设计 的 损失 函数 指导 网 
里 在 正 向 传播 中 严格 使 用 sign 函数 保持 对 网 络 输出 的 离散 约 络 训练 生成 能 够 保留 图 像 相 似 性 的 哈 希 码 。 该 方法 将 两 部 分 
束 ， 而 在 反 向 传播 中 ， 哈 希 层 梯度 被 完整 地 传送 到 前 层 ， 进 ” 融入 到 同一 个 端 到 端的 结构 中 ， 使 得 模型 在 训练 过 程 中 各 部 
一 步 避 免 了 梯度 消失 。 分 可 实现 相互 反馈 ， 实 现 了 更 加 鲁 棒 的 哈 希 编码 。 
深度 神经 网 络 = 
©% 
K © Z 贪心 损失 | 
查询 术 
© L | 
Ho maeman] Monkan] A 
希 码 V 数 
SO 01011101 
非 对 称 成 对 损失 E 11010110 
| 10011 100 
特征 提取 ud || 相似 信息 | | 
| | za ee 
图 1 本 文 方法 总 体 架 构 
Fig. 1 The overall framework of the proposed method 
值得 注意 的 是 ， 本 文 设 计 的 损失 函数 包括 两 部 分 : 贪心 为 哈 希 码 长 度 。 
损失 和 非 对 称 成 对 损失 。 如 图 1 中 贪心 损失 五 所 示 ， 得 到 图 表 1 AlexNet 神经 网 络 结构 
像 的 哈 希 特 征 后 直接 使 用 sign P 数 将 哈 希 特征 映射 成 二 进 制 Tab. 1 The network structure of alexnet 
哈 希 码 ， 再 通过 贪心 原理 解决 离散 优化 问题 ， 体 实现 过 程 Type Filter size/stride Output size 
如 2.1 节 所 示 。 如 图 1 中 非 对 称 成 对 损失 所 示 ， 该 部 分 同 Conv1 11 X11/4 55X55X96 
时 使 用 查询 图 像 与 数据 集合 图 像 的 监督 信息 对 网 络 进行 训练 ， Conv2 5XS/1 27X27X256 
并 在 训练 过 程 中 能 够 学 习 得 到 数据 集合 图 像 的 二 进 制 哈 希 码 。 Conv3 3X3/1 13X 13X384 
该 部 分 具体 实现 过 程 如 2.2 节 所 示 。 Conv4 3X3/1 13X13 x384 
如 图 1 中 特征 提取 阶段 所 示 , 为 了 提取 图 像 的 深度 特征 ， Conv5 3X3/1 13X13 X 256 
本 文采 用 AlexNetI@ 作 为 骨干 网 进行 特征 提取 。AlexNet 骨干 FCI 4096 4096 
网 包括 5 个 卷 积 层 和 3 个 全 连接 层 (结构 如 表 1 所 示 )。 为 了 FC2 4096 4096 
得 到 图 像 的 哈 希 特征 ， 本 文 在 AlexNet 骨干 网 的 FC3 层 后 添 FC3 1000 1000 
加 一 个 哈 希 编码 层 ， 它 可 以 将 深度 特征 映射 到 Re 空间 中 ，c PFARA NE EX, X= 表示 查询 图 像 集合 ， 
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该 数据 集中 共 包 含 m 个 样本 。 图像 经 过 骨干 网 提取 得 到 哈 希 
特征 万 : 


h; = 50) (1) 
其 中 了 表示 骨干 网 函数 ，9 表示 骨干 网 的 参数 。 


2 MARR 


如 图 1 中 损失 函数 阶段 所 示 , 为 学 习 得 到 更 优 的 哈 希 码 ， 
设计 了 一 个 损失 函数 ， 可 表示 为 : L=L+4L ,其 中 工 为 贪心 
损失 ， 症 为 非 对 称 成 对 损失 ，4 为 超 参 数 。 贪 心 损 失 工 能 
解决 优化 过 程 中 梯度 消失 问题 B0; 非 对 称 成 对 损失 能 够 充分 
利用 数据 集合 标签 信息 ， 并 高 效 训练 网 络 P1。 

2.1 贪心 损失 

为 了 得 到 图 像 的 哈 希 编码 ， 通 常会 在 哈 希 编码 层 后 面 使 
用 sign 函数 将 深度 特征 映射 为 二 值 化 哈 希 码 。 但 由 于 sign K 
数 不 可 导 , 会 使 优化 过 程 变 为 NP 难 问 题 ,传统 方法 使 用 tanh 
或 sigmoid 函数 进行 松弛 RI ， 这 样 虽然 能 够 训练 网 络 ， 但 会 
产生 次 优 解 ,为 更 好 解决 这 个 问题 , 本文 提 出 利用 贪心 算法 ， 
在 正 向 传播 中 严格 使 用 sign 函数 保持 对 网 络 输出 的 离散 约束 ; 
而 在 反 向 传播 中 ， 哈 希 层 梯 度 被 完整 地 传送 到 前 层 ， 避 免 了 
梯度 消失 ， 有 效 地 解决 了 离散 优化 问题 。 

贪心 损失 的 核心 问题 是 如 何 利 用 贪心 算法 来 解决 离散 优 
化 问题 。 因 此 ， 该 损失 关注 离散 优化 问题 minl@) ， 其 中 
b, =signth, e{-L Y 表示 * 的 蛤 希 码 。 具 体 地 ， 本 文 的 贪心 损 
FFAS MUTA ARIES 

在 离散 优化 过 程 中 ,如果 完全 忽略 离散 约束 be{-l, 1 , 
利用 梯度 下 降 算法 可 以 得 到 第 (t+1) 次 迭代 的 b ， 即 

a 
bit! =b; -1, T 2) 
KPL, 代表 学 习 率 。 然 而 ， 使 用 式 C) 得 到 的 解 不 满足 
b e{-1, De 。 若 不 考虑 离散 约束 ， 则 由 式 C) 所 得 到 的 解 为 连 
续 最 优 解 。 贪心 原理 认为 离 连 续 最 优 解 最 近 的 离散 点 如 式 (3)， 
就 是 所 希望 得 到 的 离散 最 优 解 。 
bi = sign(b; —1, “Sy (3) 


式 (3) 可 拆 分 为 前 向 传播 和 反 向 传播 两 步 来 实现 。 前 向 传 
播 过 程 如 式 (4) 所 示 ， 它 通过 新 的 哈 希 层 在 正 向 传播 中 使 用 
sign 函数 实现 : 


bi” = sign(h{*') (4) 
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息 ， 而 且 也 可 以 高 效 训 练 网 络 。 所 谓 非 对 称 策 略 是 指 ， 采 用 
不 同 的 方式 来 处 理 查询 图 像 和 数据 集合 图 像 。 对 于 查询 图 像 ， 
通过 骨干 网 进行 深度 特征 提取 ， 再 使 用 深度 哈 希 函数 生成 查 
询 图 像 的 哈 希 码 ;而 对 于 数据 集合 图 像 ， 它 的 哈 希 码 则 是 直 
接 学 习 得 到 。 

为 得 到 能 够 保留 查询 图 像 与 数据 集合 图 像 之 间 相 似 性 的 
哈 希 码 ， 一 种 常见 的 方法 29 是 最 小 化 训练 图 像 与 数据 集合 图 
像 的 监督 信息 相似 性 和 哈 希 码 内 积 之 间 的 相似 性 : 
min L,(B,V) => Dry, -S,P (8) 
其 中 B= (by, eiL 1 ,表示 训练 图 像 集 合 通过 哈 希 函数 所 学 
习 到 的 哈 希 人 码 集 合 。V={v,} L 41” 表示 直接 学 习 得 到 的 数 
据 集合 图 像 对 应 的 哈 希 码 集合 ， 该 集合 中 包含 个 样本 点 。 
S$; 表示 相似 和 矩阵， 如 果 两 张 图 像 相似 ，5; =1， 否 则 5;=-1。 
h, = f (x,0) 和 b=sign(h) ， 式 (8) 可 变换 为 

min L,(0.V) = È D lsin aD», -cs 中 (9) 

但 由 于 式 (9) 中 存在 sign 函数 (sign 函数 不 可 导 )， 因 此 参 
数 9 的 梯度 不 能 直接 进行 反 向 传播 。 本 文 使 用 tanh 函数 替代 
sign 函数 进行 松弛 ， 式 (9) 表 示 如 下 : 


min L, (0,V) =Y Y [eanh( f(x)", 一 CS 站? (10) 
i=l j=l 


= 


在 实际 应 用 中 ， 如 果 只 给 定 一 个 数据 集合 Z 而 没有 指明 
查询 集 X， 那 么 可 以 从 2 中 随机 采样 m 个 数据 作为 查询 得 
BI x=ze, FE Ze {zn} 表示 从 数据 集合 中 随机 采样 
的 数据 集合 ，2 = Cintas sin} 表示 采样 得 到 数据 的 索引 集 。 本文 
令 工 表示 数据 集合 的 所 有 索引 值 ， 则 2ST 。 同 样 可 以 得 到 采 
样 数据 集 对 应 的 相似 矩阵 8S? ， 令 $=S$? 。 则 式 (10) 可 重 写 为 

min L(V) = Y Y [tanh fa, ON" v; esol (11) 


aur 
o 


为 保持 和 tanh(f(z,9)) 尽 可 能 接近 ， 在 式 (11) 中 添加 一 

个 额外 约束 是 合理 的 。 由 于 tanh(f(z,9)) FE z 的 哈 希 码 的 近似 
值 ， 因 此 式 (11) 可 重 写 为 

min L,(0,V) = DD [tanh( f(z,0) rcs] + 


(12) 
rÈ lv: -tanh( f(z,0)P 


ien 


其中 7 为 超 参 数 。 
本 文采 用 交 蔡 优化 策略 来 学 习 式 (12) 中 的 参数 0 和 ， 
该 方法 也 可 适用 于 式 (10)。 有 具体 地 , 在 每 次 迭代 中 只 学 习 一 个 


反 向 传播 过 程 中 ， 本 文 在 贪心 损失 中 添加 一 个 惩罚 项 
[signs ， 并 且 使 得 该 惩罚 项 尽 可 能 地 接近 零 。 再 由 
b; = sign(h;) 可 以 得 到 : 


hi” =h; -1, oe = (太一 大) 十 及 一/ ets 
oh; oh; 
(h: — sign(h;)) +b; 一/ yon zb; —l, 3h Á 
i 8th, i br oh; i Thr Oh; 
令 
aL _ ot, 
oh; ob; (6) 
即 可 得 到 : 
mp 1 +h 
Wa (7) 


式 (6) 表 示 ， 在 反 向 传播 过 程 中 ,贪心 原理 能 够 将 哈 希 层 
梯度 完全 传送 到 网 络 输出 层 。 通 过 分 别 实现 正 向 传播 和 反 向 
传播 过 程 ， 本 文 的 贪心 损失 有 效 地 解决 了 离散 优化 问题 ， 且 
获得 精确 的 哈 希 码 。 

2.2 非 对 称 成 对 损失 

非 对 称 成 对 损失 的 作用 是 : 在 训练 过 程 中 ， 采 用 非 对 

称 策略 训练 网 络 。 这 样 不 仅 能 够 充分 利用 数据 集合 的 监督 信 


ras 


参数 而 其 他 参数 固定 ， 这 个 过 程 重 复 多 次 迭代 。 交 蔡 优 化 策 
略 更 新 参数 的 具体 过 程 可 参考 ADSHP 方 法 中 学 习 算 法 部 分 。 


3 实验 


为 验证 所 提出 方法 的 有 效 性 ， 本 文 在 两 个 常用 公开 数据 
集 上 进行 了 测试 ， 并 同 17 种 方法 进行 了 比较 。 
3.1 数据 集 
a)CIFAR-10 数据 集 。CIFAR-10 数据 集 B3 共 包含 10 个 
类 , 每 类 包含 6000 个 样本 ,总 共有 60000 张 彩 色 图 像 ， 图 像 
大 小 为 32X32。 对 于 CIFAR-10 数据 集 ， 如 果 两 幅 图 像 标签 
相同 ， 那 么 将 两 张 图 像 视 为 相似 对 。 


b)NUS-WIDE 数据 集 。NUS-WIDE 数据 集 B3] 由 269648 
张 带 标签 的 网 络 图 像 组 成 。 它 是 一 个 多 标签 数据 集 ， 其 中 每 


个 图 像 都 包含 多 张 标 签 。 本 文 只 选择 了 10 个 最 常见 的 类 的 
KR. MF NUS-WIDE 数据 集 ， 如 果 两 张 图 像 至 少 共享 一 个 
公共 标签 ， 它 们 将 被 定义 为 相似 对 。 
3.2 实验 设置 

本 实验 的 模型 是 在 PyTorch 框架 下 实现 的 。min-batch 的 
大 小 设置 为 128, 并 使 用 AdamB4 作 为 优化 器 , 权重 衰减 设置 


| 


区 
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为 0.0005， 最 大 和 迭代 次 数 设置 为 50。 在 数据 划分 上 ， 对 于 深度 哈 希 学 习 方 法 。 传 统 哈 希 学 习 方法 中 包括 无 监督 哈 希 学 
CIFAR-10 数据 集 , 随机 从 每 类 中 抽取 200 张 , 总 共 抽取 2000 习 方 法 : ITQP， 有 监督 哈 希 学 习 方 法 : Lin:LinB5]、LFHB7、 
张 图 像 作为 训练 集 ; 从 数据 集合 中 每 类 抽取 100 张 ,总 共 1000 ” Fast 381, SDH, COSDISH™°l, KADGH!!), 深度 哈 希 学 习 


张 图 像 作 为 查询 集 。 除 去 1000 张 查询 集 之 外 的 59000 张 图 方法 包括 : DSHIUI、DSDHI5]、DHNI9]、DPSHU8、DTSHPO、 
像 作为 数据 集合 。 Greedy Hash?! 、ADSHR!、SDNMSHI*1、ASDDHR7 和 
对 于 NUS-WIDE 数据 集 ， 每 次 从 数据 集合 中 随机 抽取 TransHash!%31。 


2000 张 作 为 训练 集 ， 随 机 抽取 1000 张 作 为 查询 集 ， 除 去 查 在 CIFAR-10 和 NUS-WIDE 上 的 图 像 检 索 mAP 精度 如 
询 集 之 外 的 所 有 图 像 作 为 数据 集合 。 在 评价 指标 中 ， 本 文选 ” 表 2 所 示 ,， 加 粗 字 体 表 示 最 优 值 ， 下 划 线 表示 次 优 值 , * 表 示 
取 图 像 检 索 中 最 常用 的 评价 指标 : mAP (mean Average 本 文 复 现 结果 。 从 表 2 中 可 以 看 出 ， 在 大 多 数 情况 下 ， 监 
Precision) 和 PR (Precision-Recall). 督 哈 希 学 习 方法 性 能 都 要 优 于 无 监督 哈 希 学 习 方法 ， 而 深度 

在 深度 哈 希 方法 中 ， 由 于 不 同 深度 神经 网 络 具 有 不 同 的 全 希 学 习 方 法 优 于 传统 哈 希 学 习 方 法 。 同 时 ， 本 文 方法 在 所 
特征 提取 能 力 ， 在 选取 不 同 深度 神经 网 络 作 为 骨干 网 时 检索 ”有 长 度 哈 希 码 上 的 检索 性 能 均 显著 优 于 其 他 方法 。 这 是 因为 


性 能 会 有 较 大 变化 。 为 便于 比较 , 本 实验 采用 在 ImageNet 数 所 提出 的 贪心 非 对 称 损失 能 够 更 好 地 保留 图 像 特征 信息 ， 从 
据 集 B3 上 预 训练 的 AlexNet 模型 作为 骨干 网 。 [提高 哈 希 检索 性 能 。 在 CIFAR-10 数据 集 上 ， 本 文 方法 在 
3.3 ”实验 结果 与 分 析 48 比特 条 件 下 的 性 能 比 ADSH 方法 提高 了 3.0%, 与 
3.3.1 检索 结果 对 比 TransHash 方法 相 比 提高 了 1.4%。 在 NUS-WIDE 数据 集 上 ， 

本 实验 在 图 像 数 据 集 CIFAR-10 和 NUS-WIDE 上 进行 ， 所 提 方 法 在 不 同比 特 下 检索 性 能 平均 提高 了 2.3%。 从 实验 结 


为 评估 本 文 贪心 非 对 称 深 度 有 监督 哈 希 的 性 能 ,本文 选取 17 ” 果 可 以 看 出 , 本文 方法 在 这 两 个 常用 数据 集 上 的 性 能 均 较 好 ， 
种 方法 进行 比较 ， 其 中 包括 7 种 传统 哈 希 学 习 方法 和 10 种 其 是 在 单 标签 数据 集 CIFAR-10 上 检索 性 能 提升 更 加 明显 。 
表 2 CIFAR-10 和 NUS-WIDE 上 图 像 检索 mAP 精度 对 比 
Tab.2 Comparison of map accuracy on CIFAR-10 and NUS-WIDE 


, CIFAR-10 NUS-WIDE 

方法 12 位 24 位 32 位 48 位 12 位 24 位 32 位 48 位 
ITQDI 0.2619 0.2754 0.2861 0.2941 0.7143 0.7361 0.7457 0.7553 
Lin: LinBg 0.6099 0.6312 0.6079 0.6013 0.5556 0.5704 0.5627 0.5555 
LFH®7! 0.4178 0.5738 0.6414 0.6927 0.7116 0.7681 0.7949 0.8135 
FastH®*! 0.5971 0.6632 0.6847 0.7020 0.7267 0.7692 0.7817 0.8037 
SDH"! 0.4539 0.6334 0.6514 0.6603 0.7646 0.7998 0.8017 0.8124 
COSDISHr4o 0.5831 0.6614 0.6802 0.7016 0.6425 0.7406 0.7843 0.7964 

KADGH"!! 0.6134 0.6607 0.6701 0.6829 -- -- = -- 

Greedy HashP" 0.7740 0.7950 0.8100 0.8200 -- -- 入 -- 
SDNMSH"?! = 0.8068 0.8106 0.8135 = 0.6169 0.6234 0.6289 
DSDH!'5! 0.7400 0.7860 0.8010 0.8200 0.5930 0.5930 0.6200 0.6350 
DPSHI'S 0.6818 0.7204 0.7341 0.7464 0.7941 0.8249 0.8351 0.8442 
DTSH®"! 0.7100 0.7500 0.7650 0.7740 0.7730 0.8080 0.8120 0.8240 
DSH"! 0.6441 0.7421 0.7703 0.7992 0.7125 0.7313 0.7401 0.7485 
DHN"! 0.6805 0.7213 0.7233 0.7332 0.7719 0.8013 0.8051 0.8146 
ASDDH”7! 0.7360 0.7710 0.7810 0.7850 0.8340 0.8510 0.8680 0.8740 
TransHash") -- -- 0.9108 0.9141 -- -- 0.7393 0.7532 
ADSH*21 0.8950 0.9010 0.9030 0.8970 0.8690 0.8990 0.9050 0.9110 
本 文 方法 0.9130 0.9150 0.9160 0.9270 0.8940 0.9180 0.9350 0.9300 


为 了 进一步 说 明 所 提 方 法 的 优越 性 ,本 文 在 CIFAR-10 和 WIDE 数据 集 能 达到 较 好 的 检索 性 能 。24 =1 时, NUS-WIDE 
NUS-WIDE 数据 集 上 12 比特 条 件 下 分 别 绘制 了 PR 曲线 ,如 ”在 不 同比 特 下 的 检索 结果 均 能 最 好 。 综 上 所 述 ， 本 文 超 参数 
图 2、3 所 示 。PR 曲线 与 横 坐 标 轴 所 围 面 积 越 大 ， 则 表示 该 4 取 值 为 1。 
方法 性 能 越 好 。 从 图 2、3 各 方法 的 PR 曲线 与 横 坐 标 轴 所 围 
面积 可 以 看 出 ， 贪 心 非 对 称 深 度 有 监督 哈 希 图 像 检 索 方法 的 
性 能 明显 优 于 其 他 所 有 方法 。 0.8 
3.3.2 超 参 数 分 析 
贪心 非 对 称 损 失 为 工 = 五 +4P， 其 中 石 为 贪心 损失 ， 症 为 
非 对 称 成 对 损失 ， 4 为 超 参数 。 为 分 析 A 对 于 检索 性 能 的 影 
响 ， 本 实验 在 CIFAR-10 和 NUS-WIDE 数据 集 上 进行 参数 分 


nF 


0.94 


Precision 


析 。 图 4、5 显示 了 本 实验 分 别 在 12 比特 和 48 比特 下 4 取 不 a eae T 

同 值 (0.1、1、10、100、1000) 时 的 检索 精度 。 从 图 4、5 中 可 nt 

以 看 出 ， 超 参数 4 的 取 值 对 两 个 数据 集 的 检索 结果 影响 并 不 Je A N A S) 
明显 。 图 4 显示 : 当 0.1< 14 <1 IM, CIFAR-10 数据 集 能 够 l Recall 

达到 较 好 的 检索 性 能 。4= 1 时 ，CIFAR-10 在 不 同比 特 下 的 图 2 CIFAR-10 PR 曲线 


检索 结果 均 能 达到 最 好 ; 图 5 显示 : 4 0.1< 2 <10 I, NUS- Fig.2 PR curve of CIFAR-10 
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图 3 NUS-WIDE PR 曲线 
Fig.3 PR curve of NUS-WIDE 
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Fig. 4 The retrieval accuracy with different 入 on CIFAR-10 
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图 5 入 对 NUS-WIDE 检索 精度 的 影响 
Fig.5 The retrieval accuracy with different 入 on NUS-WIDE 
3.3.3 检索 结果 可 视 化 
为 了 进一步 说 明 本 文 方法 的 检索 效果 ， 图 6 中 给 出 了 对 


CIFAR-10 数据 集 每 类 图 像 查 询 结果 (TOP 10 检索 结果 ) 的 可 
视 化 。 从 图 6 可 以 看 出 ，CIFAR-10 数据 集 的 TOP 10 平均 检 
步 验证 了 本 文 方法 在 单 标签 数据 


索 精 度 可 以 达到 98%。 进 
集 上 优异 的 检索 性 能 。 
Query Top 10 Retrieved Images P@10 
E my 


Na 100% 


图 6 CIFAR-10 的 TOP 10 检索 结果 
Fig. 6 Top 10 retrieval results on CIFAR-10 
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针对 哈 希 函数 学 习 过 程 中 的 离散 优化 问题 和 监督 信息 利 


不 充分 问题 ， 提 出 了 贪心 非 对 称 深度 有 监督 哈 希 图 像 检 索 


方法 。 该 方法 将 贪心 算法 和 非 对 称 策 略 同时 应 用 到 哈 希 学 习 
过 程 中 ， 这 样 不 仅 能 够 将 哈 希 层 梯度 完全 传送 到 网 络 输出 层 
来 解决 离散 优化 问题 ， 而 且 能 够 充分 利用 监督 信息 高 效 地 训 
练 网 络 。 所 提 方 法 与 17 种 方法 在 两 个 公开 数据 集 上 进行 对 
比 实验 ， 验 证 了 该 方法 的 有 效 性 。 虽 然 贪心 非 对 称 深 度 有 监 


督 哈 希 图 像 检索 方法 的 检索 性 能 已 经 取得 显著 
标签 检索 任务 上 仍 有 一 定 的 提升 空间 。 因 此 在 下 一 步 工作 中 ， 


进步 ， 但 在 多 


本 文 将 考虑 进一步 提高 本 文 方 法 对 多 标签 数据 的 适应 能 力 。 
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